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La presente invention concerne un procede de traduction de donnees d'entree en 
au moins une sequence lexicale de sortie, incluant une etape de decodage des donnees 
d'entree au cours de laquelle des entites lexicales dont lesdites donnees sont 
representatives sont identifiees au moyen d'au moins un modele. 
5 De tels procedes sont communement utilises dans des applications de 

reconnaissance de parole, oil au moins un modele est mis en oeuvre pour reconnaitre 
des symboles acoustiques presents dans les donnees d'entree, un symbole pouvant etre 
constitue par exemple par un ensemble de vecteurs de parametres d'un espace 
acoustique continu, ou encore par un label attribue a une entite sous-lexicale. 

10 Dans certaines applications, le qualificatif "lexical" s'appliquera a une phrase 

consideree dans son ensemble, en tant que suite de mots, et les entites sous-lexicales 
seront aiors des mots, alors que dans d'autres applications, le qualificatif "lexical" 
s'appliquera a un mot, et les entites sous-lexicales seront alors des phonemes ou 
encore des syllabes aptes a former de tels mots, si ceux-ci sont de nature litterale, ou 

15 des chiffres, si les mots sont de nature numerique, c'est-a-dire des nombres. 

Une premiere approche pour operer une reconnaissance de parole consiste a 
utiliser un type particulier de modele qui presente une topologie reguliere et est 
destine a apprendre toutes les variantes de prononciation de chaque entite lexicale, 
c'est-a-dire par exemple un mot, inclus dans le modele. Selon cette premiere 

20 approche, les parametres d'un ensemble de vecteurs acoustiques propre a chaque 
symbole d'entree correspondant a un mot inconnu doivent etre compares a des 
ensembles de parametres acoustiques correspondant chacun a l'un des tres nombreux 
symboles contenus dans le modele, afin d' identifier un symbole modelise auquel 
correspond le plus vraisemblablement le symbole d'entree. Une telle approche garantit 

25 en theorie un fort taux de reconnaissance si le modele utilise est bien con<?u, c'est-a- 
dire quasi-exhaustif, mais une telle quasi-exhaustivite ne peut etre obtenue qu'au prix 
d'un long processus d'apprentissage du modele, qui doit assimiler une enorme 
quantite de donnees representatives de toutes les variantes de prononciation de chacun 
des mots inclus dans ce modele. Cet apprentissage est en principe realise en faisant 

30 prononcer par un grand nombre de personnes tous les mots d'un vocabulaire donne, et 
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a enregistrer toutes les variantes de prononciation de ces mots. II apparait clairement 
que la construction d'un modele lexical quasi-exhaustif n'est pas envisageable en 
pratique pour des vocabulaires presentant une taille superieure a quelques centaines de 
mots. 

Une deuxieme approche a ete con9ue dans le but de reduire le temps 
d'apprentissage necessaire aux applications de reconnaissance de parole, reduction qui 
est essentielle a des applications de traduction sur de tres grands vocabulaires pouvant 
contenir plusieurs centaines de milliers de mots, laquelle deuxieme approche consiste 
a operer une factorisation des entites lexicales en les considerant comme des 
assemblages d'entites sous-lexicales, a generer un modele sous-lexical modelisant 
lesdites entites sous-lexicales en vue de permettre leur identification dans les donnees 
d'entree, et un modele d' articulation modelisant differentes combinaisons possibles de 
ces entites sous-lexicales. Selon cette deuxieme approche, un nouveau modele 
dynamique formant le modele d' articulation est constitue a partir de chaque entite 
sous-lexicale nouvellement identifiee dans les donnees d'entree, lequel modele 
dynamique rend compte de tous les assemblages rendus possibles en partant de l'entite 
sous-lexicale consideree, et determine une valeur de vraisemblance pour chaque 

assemblage possible. 

Une telle approche, decrite par exemple au chapitre 16 du manuel "Automatic 
Speech and Speaker Recognition" edite par Kluwer Academic Publishers, permet de 
reduire considerablement, par rapport au modele utilise dans le cadre de la premiere 
approche decrite plus haut, les durees individuelles des processus d'apprentissage du 
modele sous-lexical et du modele d' articulation, car chacun de ces modeles presente 
une structure simple par rapport au modele lexical utilise dans la premiere approche. 

Cependant, dans la plupart des implementations connues de la deuxieme 
approche decrite ci-dessus, le modele sous-lexical est duplique a de multiples reprises 
dans le modele d'articulation. Ceci peut etre aisement compris en considerant un 
exemple ou l'unite lexicale est une phrase et les unites sous-lexicales sont des mots. Si 
le modele d'articulation est d'un type bi-gramme, c'est-a-dire qu'il rend compte de 
possibility d'assemblage de deux mots successifs et de probability d'existence de 
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tels assemblages, chaque mot retenu a Tissue de la sous-etape d' identification devra 
etre etudie, en reference au modele d'articulation, avec tous les autres mots retenus 
ayant pu preceder le mot considere. Si P mots ont ete retenus a Tissue de la sous-etape 
d' identification, P couples de mots devront etre constants pour chaque mot a 
identifier, avec P valeurs de probability d'existence, chacune associee a un couple 
possible. Dans le cas d'un modele d'articulation plus realiste de type tri-gramme, qui 
rend compte de possibilites d'assemblage de trois mots successifs et de probabilites 
d'existence de tels assemblages, le modele d 5 articulation devra comporter, pour 
chaque mot a identifier, P fois P triplets de mots avec autant de valeurs de probability 
d'existence. Les modeles d' articulation mis en oeuvre dans la deuxieme approche ont 
done une structure simple, mais represented un volume considerable de donnees a 
memoriser, a mettre a jour et a consulter. On con9oit aisement que la creation et - 
T exploitation de tels modeles donne lieu a des acces memoire dont la gestion est 
rendue complexe par le volume de donnees a traiter, et par la repartition desdites 
donnees. Dans des applications de type langage nature!, pour lesquelles des modeles 
plus realistes de type N-gramme, ou N est le plus souvent superieur a deux, sont mis 
en oeuvre, les acces memoire evoques precedemment presented des\ temps 
d'execution incompatibles avec des contraintes de type "temps reel" necessitant des 
acces memoire tres rapides. 

Par ailleurs, chaque mot peut lui-meme etre considere vis-a-vis de syllabes ou de 
phonemes qui le composent comme une entite lexicale d'un niveau inferieur a celui 
d'une phrase, entite lexicale pour la modelisation de laquelle il faut egalement recourir 
a un modele d'articulation de type N-gramme avec plusieurs dizaines d'entites sous- 
lexicales possibles dans le cas des phonemes. 

II apparait clairement que les multiples duplications des modeles sous-lexicaux 
auxquelles font appel les modeles d'articulation dans les implementations connues de 
la deuxieme approche prohibent Putilisation de celle-ci dans des applications de 
reconnaissance de parole dans le cadre duplications de type tres grands vocabulaires, 
qui comportent plusieurs centaines de milliers de mots. 
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L'invention a pour but de remedier dans une large mesure a cet inconvenient, en 
proposant un precede de traduction qui ne necessite pas de multiples duplications de 
modeles sous-lexicaux pour valider des assemblages d'entites sous-lexicales, et 
simplifie ainsi 1' implementation dudit procede de traduction, et en particulier la 
gestion d'acces memoire utiles a ce procede. 

En effet, un procede de traduction conforme au paragraphe introductif, incluant 
une etape de decodage au cours de laquelle des entites sous-lexicales dont les donnees 
d'entree sont representatives sont identifiees au moyen d'un premier modele construit 
sur la base d'entites sous-lexicales predetermines, et au cours de laquelle sont 
generees, au fur et a mesure que les entites sous-lexicales sont identifiees et en 
reference a au moins un deuxieme modele construit sur la base d'entites lexicales, 
diverses combinaisons possibles desdites entites sous-lexicales, est caracterise selon 
l'invention en ce que l'etape de decodage inclut une sous-etape de memorisation 
d'une pluralite de combinaisons possibles desdites entites sous-lexicales, la 
combinaison la plus vraisemblable etant destinee a former la sequence lexicale de 
sortie. 

Du fait que divers assemblages d'entites sous-lexicales sont memorises au fur et 
a mesure que ces entites sont produites, il n'est plus necessaire de construire apres 
identification de chacune desdites entites sous-lexicales un modele dynamique 
reprenant toutes les entites sous-lexicales possibles, ce qui permet d'eviter les 
duplications evoquees plus haut et les problemes de gestion memoire y afferant. 

La possibility de memoriser plusieurs combinaisons differentes permet de garder 
une trace de plusieurs assemblages possibles d'entites sous-lexicales, chacun 
presentant une vraisemblance propre a l'instant ou cet assemblage est genere, laquelle 
vraisemblance pouvant etre affectee favorablement ou defavorablement apres analyse 
de sous-entites lexicales ulterieurement produites. Ainsi, une selection d'un 
assemblage presentant la plus forte vraisemblance a un instant donne, mais qui sera 
finalement juge peu vraisemblable a la lumiere d'entites sous-lexicales ulterieures ne 
provoquera pas une elimination systematique d'autres assemblages, qui pourront 
finalement s'averer plus pertinents. Cette variante de l'invention permet done de 
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conserver des donnees representant, sous forme de differents historiques, differentes 
interpretations des donnees d'entree, interpretations dont la plus vraisemblable pourra 
etre identifiee et retenue pour former la sequence lexicale de sortie lorsque toutes les 
entites sous-lexicales auront elles-meme ete identifiees. 
5 Dans un mode de realisation particulier de cette variante de Pinvention, la 

memorisation d'une combinaison est assujettie a une validation operee en reference au 
moins au deuxieme modele. 

Ce mode de realisation permet de realiser de maniere simple un filtrage des 
assemblages qui paraissent peu vraisemblables a la lumiere du deuxieme modele. 

10 Seuls seront retenus et memorises les assemblages les plus plausibles, les autres 
assemblages n'etant pas memorises et done pas ulterieurement pris en consideration. 

Dans une variante de ce mode de realisation, la validation de memorisation . 
pourra etre effectuee en reference a plusieurs modeles de niveaux equivalents et/ou 
differentes, un niveau rendant compte de la nature sous-lexicale, lexicale ou encore 

15 grammaticale d'un modele. 

Dans un mode de realisation particulierement avantageux de cette variante de 
r invention, une validation de memorisation d'une combinaison est accompagnee 
d'une attribution a la combinaison a memoriser d'une valeur de probability 
representative de la vraisemblance de ladite combinaison. 

20 Ce mode de realisation permet de moduler la nature binaire du filtrage operee 

par la validation ou Tabsence de validation de la memorisation d'une combinaison, en 
affectant une appreciation quantitative a chaque combinaison memorisee. Ceci 
permettra une meilleure appreciation de la vraisemblance des diverses combinaisons 
qui auront ete memorisees, et done une traduction de meilleure qualite des donnees 

25 d'entree. 

On pourra en outre prevoir que differentes operations de validation portant sur 
differentes combinaisons relatives a un meme etat du premier modele sont executees 
de fa<?on contigue dans le temps. 
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Ceci permettra de reduire encore le volume des acces memoire et des 
duplications de calcul, en traitant en une seule fois toute une famille d* informations 
qu'il faudra sinon memoriser et lire a de multiples reprises. 

Dans un mode de realisation particulier de 1' invention, 1' etape de decodage met 
5 en oeuvre un algorithme de Viterbi applique a un premier modele de Markov constitue 
d'entites sous-lexicales, sous controle dynamique d'un deuxieme modele de Markov 
representatif de combinaisons possibles d'entites sous-lexicales. 

Ce mode de realisation est avantageux en ce qu'il utilise des moyens eprouves et 
individuellement connus de l'homme du metier, le controle dynamique obtenu grace 
10 au deuxieme modele de Markov permettant de valider les assemblages d'entites sous- 
lexicales au fur et a mesure que lesdites entites sont identifies au moyen de 
l'algorithme de Viterbi, ce qui evite d'avoir a construire apres identification de chaque 
entite sous-lexicale un nouveau modele dynamique reprenant toutes les entites sous- 
lexicales possibles semblable a ceux utilises dans les implementations connues de la 
15 deuxieme approche evoquee plus haut. 

L' invention concerne egalement un systeme de reconnaissance de signaux 
acoustiques mettant en ceuvre un procede tel que decrit ci-dessus. 

Les caracteristiques de l'invention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
20 realisation, ladite description etant faite en relation avec les dessins joints, parmi 
lesquels : 

La Fig.l est un schema fonctionnel decrivant un systeme de reconnaissance 
acoustique dans lequel un procede conforme a l'invention est mis en oeuvre, 

La Fig. 2 est un schema fonctionnel decrivant un decodeur destine a executer une 
25 premiere etape de decodage dans ce mode de mise en oeuvre particulier de l'invention, 
et 

La Fig. 3 est un schema fonctionnel decrivant un decodeur destine a executer une 
deuxieme etape de decodage conforme au procede selon l'invention. 

La Fig.l represente schematiquement un systeme SYST de reconnaissance 
30 acoustique selon un mode de mise en oeuvre particulier de l'invention, destine a 
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traduire un signal acoustique d'entree ASin en une sequence lexicale de sortie 
OUTSQ. Le signal d'entree ASin est constitue par un signal electronique analogique, 
qui pourra provenir par exemple d'un microphone non represents sur la figure. Dans 
le mode de realisation decrit ici, le systeme SYST inclut un etage d'entree FE, 
5 contenant un dispositif de conversion analogique/numerique ADC, destine a fournir 
un signal numerique ASin(l:n), forme d'echantillons ASin(l), ASin(2). . . ASin(n) 
codes chacun sur b bits, et representatif du signal acoustique d'entree ASin, et un 
module d'echantillonnage SA, destine a convertir le signal acoustique numerise 
ASin(l:n) en une sequence de vecteurs acoustiques AVin, chaque vecteur etant muni 

10 de composantes AVI, AV2. . . AVr ou r est la dimension d'un espace acoustique defmi 
pour une application donnee a laquelle le systeme de traduction SYST est destine, 
chacune des composantes AVi (pour i=l a r) etant evaluee en fonction de 
caracteristiques propres a cet espace acoustique. 

Le systeme SYST inclut en outre un premier decodeur DEC1, destine a fournir 

15 une selection Intl, Int2. .IntK d 5 interpretations possibles de la sequence de vecteurs 
acoustiques AVin en reference a un modele MD1 construit sur la base d'entites sous- 
lexicales predeterminees. 

Le systeme SYST inclut de plus un deuxieme decodeur DEC2 dans lequel un 
procede de traduction conforme a Tinvention est mis en oeuvre en vue d'analyser des 

20 donnees d'entree constituees par les vecteurs acoustiques AVin en reference a un 
premier modele construit sur la base d'entites sous-lexicales predetermines, par 
exemple le modele MD1, et en reference a au moins un deuxieme modele MD2 
construit sur la base d'entites lexicales representatives des interpretations Intl, 
Int2...IntK selectionnees par le premier decodeur DEC1, en vue d'identifier celle 

25 desdites interpretations qui devra constituer la sequence lexicale de sortie OUTSQ. 

La fig.2 represente plus en detail le premier decodeur DEC1, qui inclut une 
premiere machine de Viterbi VM1, destinee a executer une premiere sous-etape de 
decodage de la sequence de vecteurs acoustiques AVin representative du signal 
acoustique d'entree et prealablement generee par r etage d'entree FE, laquelle 

30 sequence sera en outre avantageusement memorisee dans une unite de stockage 
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MEM1 pour des raisons qui apparaitront dans la suite de Pexpose. La premiere sous- 
etape de decodage est operee en reference a un modele de Markov MD1 1 autorisant 
en boucle toutes les entites sous-lexicales, de preference tous les phonemes de la 
langue dans laquelle le signal acoustique d'entee doit etre traduit si Ton considere que 
5 les entites lexicales sont des mots, les entites sous-lexicales etant representees sous 
forme de vecteurs acoustiques predetermines. 

La premiere machine de Viterbi VM1 est apte a restituer une sequence de 
phonemes Phsq qui constitue la plus proche traduction phonetique de la sequence de 
vecteurs acoustiques AVin. Les traitements ulterieurs realises par le premier decodeur 

10 DEC1 se feront ainsi au niveau phonetique, et non plus au niveau vectoriel, ce qui 
reduit considerablement la complexite desdits traitements, chaque vecteur etant une 
entite multidimensionnelle presentant r composantes, tandis qu'un phoneme peut en 
principe etre identifie par un label unidimensionnel qui lui est propre, comme par 
exemple un label "OIF* attribue a une voyelle orale ct u", ou un label "CEP' attribue a 

15 une consonne frictive non-voisee "J". La sequence de phonemes Phsq generee par la 
premiere machine de Viterbi VM1 est ainsi constitute d'une succession de labels plus 
aisement manipulables que ne le serai ent des vecteurs acoustiques. 

Le premier decodeur DEC1 inclut une deuxieme machine de Viterbi VM2 
destinee a executer une deuxieme sous-etape de decodage de la sequence de phonemes 

20 Phsq generee par la premiere machine de Viterbi VM1. Cette deuxieme etape de 
decodage est operee en reference a un modele de Markov MD12 constitue de 
transcriptions sous-lexicales d'entites lexicales, c 3 est-a-dire dans cet exemple de 
transcriptions phonetiques de mots presents dans le vocabulaire de la langue dans 
laquelle le signal acoustique d'entree doit etre traduit. La deuxieme machine de 

25 Viterbi est destinee a interpreter la sequence de phonemes Phsq, qui est fortement 
bruitee du fait que le modele MD11 utilise par la premiere machine de Viterbi VM1 
est d'une grande simplicite, et met en oeuvre des predictions et des comparaisons entre 
des suites de labels de phonemes contenus dans la sequence de phonemes Phsq et 
diverses combinaisons possibles de labels de phonemes prevues dans le modele de 

30 Markov MD12. Bien qu'une machine de Viterbi ne restitue usuellement que celle des 



1er depot 



sequences qui presente la plus grande probabilite, la deuxieme machine de Viterbi 
VM2 mise en oeuvre ici restituera avantageusement toutes les sequences de phonemes 
lsql, lsq2...lsqN que ladite deuxieme machine. VM2 aura pu reconstituer, avec des 
valeurs de probabilite associees pi, p2...pN qui auront ete calculees pour lesdites 
sequences et seront representatives de la fiabilite des interpretations du signal 
acoustique que ces sequences representent. 

Toutes les interpretations possibles lsql, lsq2...1sqN etant rendues 
automatiquement disponibles a Tissue de la deuxieme sous-etape de decodage, une 
selection de K interpretations Intl, Int2. . .IntK qui presentent les plus fortes valeurs de 
probabilite est aisee quelle que soit la valeur de K qui aura ete choisie. 

Les premiere et deuxieme machines de Viterbi VM1 et VM2 peuvent 
fonctionner en parallele, la premiere machine de Viterbi VM1 generant alors au fur et 
a mesure des labels de phonemes qui seront immediatement pris en compte par la 
deuxieme machine de Viterbi VM2, ce qui permet de reduire le delai total per?u par 
un utilisateur du systeme necessaire a la combinaison des premiere et deuxieme sous- 
etapes de decodage en autorisant la mise en oeuvre de T ensemble des ressources de 
calcul necessaires au fonctionnement du premier decodeur DEC1 des que les vecteurs 
acoustiques AVin representatifs du signal acoustique d'entree apparaissent^et non pas 
apres qu'ils aient ete entierement traduits en une sequence complete de phonemes 
Phsq par la premiere machine de Viterbi VM1 . 

La Fig. 3 represente plus en detail un deuxieme decodeur DEC2 conforme a un 
mode de realisation particulier de V invention. Ce deuxieme decodeur DEC2 inclut une 
troisieme machine de Viterbi VM3 destinee a analyser la sequence de vecteurs 
acoustiques AVin representative du signal acoustique d' entree prealablement 
memorisee dans Punite de stockage MEM1 . 

A cet effet, la troisieme machine de Viterbi VM3 est destinee a executer une 
sous-etape d'identification au.cours de laquelle les entites sous-Iexicales dont les 
vecteurs acoustiques AVin sont representatifs sont identifiees au moyen d'un premier 
modele construit sur la base d'entites sous-lexical es predeterminees, dans cet exemple 
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le modele de Markov MD1 1 mis en oeuvre dans le premier decodeur et deja decrit plus 
haut. 

La troisieme machine de Viterbi VM3 genere en outre, au fur et a mesure que 
ces entites sont identifies et en reference a au moins un modele de Markov specifique 

5 MD3 construit sur la base d'entites lexicales, diverses combinaisons possibles des 
entites sous-lexicales, la combinaison la plus vraisemblable etant destinee a former la 
sequence lexicale de sortie OUTSQ. Le modele de Markov specifique MD3 est ici 
specialement genere a cet effet par un module de creation de modele MGEN, et est 
uniquement representatif d'assemblages possibles de phonemes au sein des sequences 

10 de mots formees par les diverses interpretations phonetiques Intl, Int2, . . IntK du 
signal acoustique d'entree delivrees par le premier decodeur, lesquels assemblages 
sont representes par des sous-modeles extraits du modele lexical MD2 par le module 
de creation de modele MGEN. Le modele de Markov specifique MD3 presente done 
une taille restreinte du fait de sa specificity. 

15 Lorsque la troisieme machine de Viterbi VM3 se trouve dans un etat ni donne, 

auquel sont associes un historique hp et une valeur de probability Sp, s 5 il existe dans 
le modele de Markov MD1 1 une transition dudit etat ni vers un etat nj munie d'un 
marqueur M, lequel marqueur pouvant par exemple etre constitue par le label d'un 
phoneme dont le dernier etat est ni ou d'un phoneme dont le premier etat est nj, la 

20 troisieme machine de Viterbi VM3 associera a Tetat nj un nouvel historique hq et une 
nouvelle valeur de probability Sq qui seront generes en reference au modele specifique 
MD3, sur la base de Thistorique hp, de sa valeur de probability associee Sp et du 
marqueur M, la valeur de probability Sp pouvant en outre etre egalement modifiee en 
reference au modele de Markov MD11. Cette operation sera repetee pour tous les 

25 historiques associes a Tetat ni. Si un meme historique hk est associe a plusieurs 
reprises a un meme etat du modele de Markov MD11 avec differentes valeurs de 
probability Spl 3 :..Spq, conformement a Talgorithme de Viterbi, seule la valeur de 
probability la plus elevee sera conservee et attribuee en tant que valeur de probability 
Sp a T historique hk. 
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Chaque etat nj est memorise dans une unite de stockage MEM2 avec ses 
differents historiques hq et une valeur de probabilite Sq propre a chaque historique, et 
ce jusqu'a ce que la troisieme machine de Viterbi VM3 ait identifie tous les phonemes 
contenus dans la sequence de vecteurs acoustiques d' entree AVin et ait atteint un 
5 dernier etat nf au fil d'une pluralite d'historiques hf representant les diverses 
combinaisons possibles des phonemes identifies. Celui de ces historiques auquel aura 
ete attribute la plus forte valeur de probabilite Sf max sera retenu par un decodeur de 
memoire MDEC pour former la sequence lexicale de sortie OUTSQ. 

Le modele de Markov MD3 opere done un controle dynamique permettant de 

10 valider les assemblages de phonemes au fur et a mesure que lesdits phonemes sont 
identifies par la troisieme machine de Viterbi VM3, ce qui evite devoir a dupliquer 
ces phonemes pour former des modeles tels ceux utilises dans les implementations 
connues de la deuxieme approche evoquee plus haut De la sorte, les acces aux unites 
de stockage MEM1 et MEM2, ainsi qu'au differents modeles de Markov MD11, 

15 MD12, MD2 et MD3 mis en oeuvre dans F exemple decrit ci-dessus necessitent une 
gestion peu complexe, du fait de la simplicite de structure desdits modeles et des 
informations destinees a etre memorisees et lues dans lesdites unites de stockage: Ces 
acces memoire peuvent done etre executes suffisamment rapidement pour rendre le 
systeme decrit dans cet exemple apte a accomplir des traductions en temps reel de 

20 donnees acoustiques d'entree en sequences lexicales de sortie. 

Bien que T invention ait ete decrite ici dans le cadre d'une application au sein 
d'un systeme incluant deux decodeurs disposes en cascade, il est tout-a-fait 
envisageable, dans d'autres modes de mise en oeuvre de 1' invention, de n'utiliser 
qu'un unique decodeur semblable au deuxieme decodeur decrit plus haut, qui pourra 

25 par exemple operer une analyse acoustico-phonetique et memoriser, au fur et a mesure 
que des phonemes seront identifies, diverses combinaisons possibles desdits 
phonemes, la combinaison de phonemes la plus vraisemblable etant destinee a former 
la sequence lexicale de sortie. 
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REVENDICATIONS 

1) Procede de traduction de donnees d'entree en au moins une sequence lexicale 
de sortie, incluant une etape de decodage des donnees d'entree au cours de laquelle 
des entites sous-lexicales dont lesdites donnees sont representatives sont identifiees au 
moyen d'un premier modele construit sur la base d'entites sous-lexicales 

5 predetermines, et au cours de laquelle sont generees, au fur et a mesure que les 
entites sous-lexicales sont identifiees et en reference a au moins un deuxieme modele 
construit sur la base d'entites lexicales, diverses combinaisons possibles desdites 
entites sous-lexicales, 

procede caracterise en ce que 1 'etape de decodage inclut une sous-etape de 

10 memorisation d'une pluralite de combinaisons possibles desdites entites sous- 
lexicales, la combinaison la plus vraisemblable etant destinee a former la sequence 
lexicale de sortie. 

2) Procede de traduction selon la revendication 1, caracterise en ce que la 
memorisation d'une combinaison est assujettie a une validation operee en reference au 

15 moins au deuxieme modele. 

3) Procede de traduction selon la revendication 2, caracterise en ce qu'une 
validation de memorisation d'une combinaison est accompagnee d'une attribution a la 
combinaison a memoriser d'une valeur de probability representative de la 
vraisemblance de ladite combinaison. 

20 4) Procede de traduction selon Tune des revendi cations 2 ou 3, caracterise en ce 

que differentes operations de validation port ant sur differentes combinaisons relatives 
a un meme etat du premier modele sont executees de fa?on contigue dans le temps. 

5) Procede de traduction selon la revendication 1, caracterise en ce que 1' etape 
de decodage met en oeuvre un algorithme de Viterbi applique a un premier modele de 

25 Markov constitue d'entites sous-lexicales, sous controle dynamique d'un deuxieme 
modele de Markov representatif de combinaisons possibles d'entites sous-lexicales. 

6) Systeme de reconnaissance vocale mettant en oeuvre un procede de traduction 
conforme a l'une des revendications 1 a 5. 
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